统计学

Summary

这部分内容有多又杂还不好理解,晕了.

基本概念

总体、样本、观测值

总体: ,研究对象的数量指标.

我们假设. 如果的类型本身位置,我们称这样的统计问题为非参数统计;如果已知道分布类型,但是参数不知道,我们称这样的统计问题为参数统计.

样本: . (简单)样本要求有:

  • 代表性:
  • 独立性:

独立要求放回抽样,实际上考虑十分之一原则

样本的上述两条性质告诉我们:独立同分布.

Thm

,则

观测值: 样本的观测值为

Def

似然函数

根据独立性,也有下面两种表示:

  • 用概率密度表示
  • 用概率表示:

似然和概率本质是一样的,计算都使用联合概率,但是似然强调:我们已经有了一组观测值,在不同参数下观测到这样一组观测值的概率如何.

统计量

定义与例子

Def

统计量
对于样本,而是一个已知函数(已知的意思是,和之前的不同,只和样本有关而不含其他不确定的参数?),则

是样本的统计量,其分布为抽样分布,在观测值下的取值称为统计量的观测值.

下面是一些常见的统计量:

样本均值

样本方差与修正方差

另外

样本矩

我们介绍一下统计量和参数估计的关系. 假设,我们称对参数的一个估计为. 可以说对参数的估计也是一个统计量,或者说任何一个统计量可以作为对参数的估计. 但是对参数的估计有好坏之分,常见的参数估计方法包括矩估计、极大似然估计和Bayes估计等.

一个常见的评价参数估计值好坏的指标是MSE,对于估计值和真实值

如果其中,也就是. 则称无偏估计,从上面的结果可以知道,对于无偏估计,方差越小,估计效果越好.

另外,如果 称为相合(一致)估计. 相合估计一般是一个比无偏估计更弱的性质.

我们给出下面几个结论,这可以作为我们计算样本的分布的例子.

样本均值是对总体均值的无偏估计:

根据这个结果,还有:

样本均值是对总体均值的相合估计:

这个东西证明其实很简单,就是Khinchin大数定律嘛!条件是独立同分布 + 均值存在. 另外,请你思考如何证明Khinchin大数定律?其实用特征函数就可以了.

样本方差是对总体方差的无偏+相合估计

这里只说明它是无偏的,这也就说明修正方差不是无偏的:

首先是下面这个已经知道的结论:

求期望:

请注意这里倒数第二个等号使用到了样本二阶矩的期望 = 总体期望的平方 + 总体期望的平方:

另外,其中的计算这里就不说了,自己展开就行了.

样本修正方差是总体方差的相合估计,但不是无偏的

上面说了,样本方差无偏,所以样本修正方差是有偏的.

Tip

n - 1是哪里来的?
你也许会好奇(当然你也有可能不好奇)为什么n - 1才是无偏的,下面是ChatGPT的回答:

样本方差的无偏估计公式是

而修正方差(除以 )是有偏的。

原因在于,样本均值 是用数据计算得到的,带来了一个线性约束:

使得数据点的自由度减少了1,变为 。换句话说,虽然有 个样本点,但用来计算波动性的“自由变化量”只有 个。

因此,如果除以 ,会系统性地低估总体方差,因为误差的真实自由度没被考虑进去;而除以 则刚好修正了这种偏差,使得样本方差在期望意义上等于总体方差,即无偏。

这也是为什么统计中常说,样本方差必须除以 ,才能得到无偏估计。

样本修正方差等于样本二阶矩 - 样本均值平方

也就是

样本的顺序统计量

上面主要介绍了均值和方差及其相关的统计量,接下来介绍样本的顺序统计量.

Def

顺序统计量

如果将样本按从小到大的顺序排列,得到,则称为第个顺序统计量。

最大值 / 最小值

为什么?举个例子

Note

考虑最小值,我们总是要转换成:所有元素都比它大;
考虑最大值,我们总是要转换成:所有元素都比它小.

同这个例子我们可以明显地看到:顺序统计量不再满足i.i.d.的条件.

中位数

极差

Thm

样本顺序统计量的分布

,考虑样本的顺序统计量的分布:

顺序统计量没有考虑哪个值出现在什么位置,所以我们要乘一个.

证明

其中是一个置换矩阵,而且我们知道. 也就是上面这个变换的Jacobian行列式为1(建议复习下变换下的分布),而且我们知道这样的置换矩阵一共有个,从而不难得到上面的结论:如果知道原来的分布,可以得到顺序统计量的分布.

我们刚才考虑了的分布,接下来继续考虑这样的问题:

如果直接使用上述的结论,需要计算n - 1重积分,很繁琐. 但是考虑下面这个图,我们把整个区间分成三段,用三项分布表示概率:

22_fig1.jpg

从而

特别地,如果,我们有:

作为练习,我们再考虑两项的情况,此时要用五项分布,原理和之前是一样的:

所以:

和之前一样,除以,我们可以得到概率密度:

我们再来看下面这个例子:

Example

,求联合分布

和上面一样,我们有:

所以不难知道pdf.

特别地,如果,我们有:

所以极差

(这个公式和卷积公式很像)

代入之前得到的pdf,就有:

从而

注:似乎均匀分布总会跟Beta分布联系起来

作为顺序统计量部分的结束,我们写一个定理:

Thm

顺序统计量的分布

  1. 对于均匀分布的样本,顺序统计量的密度函数为:

    也就是.

  2. 对于一般的分布,顺序统计量的密度函数为:

    其中是总体的密度函数。
    我们知道有这样一个知名的结论:. 所以有结论:

  3. 对于正态总体,顺序统计量之间是相关的,但渐近地,对于固定的,当时,标准化的顺序统计量是渐近独立的正态随机变量。

经验分布函数

Def

经验分布函数

经验分布函数是由顺序统计量决定的随机变量。

Note

背景知识
经验分布函数(Empirical Distribution Function, EDF)是根据样本数据构造的对总体分布函数的估计。对于任意实数表示样本中不超过的观测值的比例。它是分布函数的一个自然估计量。

接下来我们要说明经验分布函数收敛与分布函数,这个做法很有趣,它依赖于我们之前将分布函数写成这个形式。事实上:

这是因为是一个伯努利随机变量,其成功概率为。由于是独立同分布的,所以也是独立同分布的,它们的和服从二项分布

因此,我们可以计算经验分布函数的期望和方差:

由于(当时),根据切比雪夫不等式,我们可以得到(Markov大数定律):

这就说明了经验分布函数依概率(逐点)收敛于分布函数。而且根据中心极限定理,由于个独立同分布随机变量的均值,我们有(LL-CLT):

所以我们还知道收敛速度是。这是因为中心极限定理告诉我们标准化后的的极限分布是标准正态分布,而标准化因子是,所以收敛速度是

Note

你能看懂我们上面这是在做什么吗?
我们的经验分布函数是依赖于样本的,或者换句话说,对于特定的,我们的经验分布是样本的一个函数,所以我们就可以使用大数定律和中心极限定理完成上面这些证明,证明经验分布函数逐点依概率收敛于分布函数. 这当然不是最强的,但也只能这样了. 更强的定理在下面:

Note

除了上面的结论,我们还有:
Glivenko-Cantelli定理

这个定理表明经验分布函数在整个实数轴上一致地几乎必然收敛到真实分布函数。这是一个强有力的结果,因为它意味着经验分布函数是真实分布函数的一个良好的全局近似。不过没有机会证明了。

Question

我们知道(你知道吗?)

请使用Delta方法说明:

说一下符号:是理论中位数(总体的中位数);是样本中位数

解答:

我们先来说明一下“我们知道”. 因为. 而且我们还知道. 所以:

这里.

我们可以使用Delta方法来解决这个问题。首先回顾一下Delta方法的内容:

Thm

Delta方法
如果,那么对于可微函数,我们有:

现在,我们已知:

这里对应于对应于对应于

我们需要找到一个函数,使得。注意到,经验分布函数的反函数就是样本分位数函数,特别地,若,则

因此,我们可以取,即真实分布函数的反函数。这样:

Review

微积分复习:反函数求导法则

我们知道,而且,即

根据Delta方法:

因此:

这等价于:

其中表示近似分布。

抽样分布

Def

抽样分布
抽样分布是指统计量(基于样本计算得到的随机变量)的概率分布。统计量是样本的函数,由于样本是随机的,因此统计量也是随机变量,它具有某种概率分布,这种分布就是抽样分布。

三大抽样分布

考虑统计量的分布,我们首先介绍三大抽样分布:

1. 卡方分布(Chi-Square Distribution)

Def

卡方分布
如果,则服从自由度为的卡方分布,记作:

Thm

如果. 那么:

Review
Def

Gamma分布

随机变量服从参数为的Gamma分布,记为,如果其密度函数为:

其中是形状参数,是速率参数。

Gamma分布的期望和方差:

Gamma分布的特殊情况:

  1. 时,Gamma分布退化为指数分布

  2. 时,Gamma分布等价于自由度为的卡方分布

Gamma分布的可加性:

如果是独立的,则

Note

卡方分布的性质

期望与方差

密度函数

卡方分布的可加性
如果,并且相互独立,则。这直接来源于Gamma分布的可加性。也就是.

2. t分布(Student's t-Distribution)

Def

t分布
考虑,其中, ,且相互独立。则称,其中是自由度。

t分布的密度函数为:

这是一个对称分布。而且,当时,

期望与方差:

Note

如果,则是Cauchy分布,其期望不存在。一个推论是:对于,我们有:

证明:

方差:

根据对称性,我们还有:

Note

这里的的意思是,对于自由度的分布,使得左侧面积是取值。根据对称性不难得到上面的结论。

3. F分布(F-Distribution)

Def

F分布

其中相互独立。这里分别是分子和分母的自由度。

F分布的密度函数为:

F分布的一些重要性质:

以及:

Example

如果,则

证明:
,其中独立。

因为,所以

正态总体抽样分布定理

假设,而是从这个总体中抽取的一组样本。

Thm
  1. 样本均值的分布:
    从而

  2. 样本均值的分布(这是正态分布平方分布的直接推论):

  3. 样本方差的分布:

  4. 重要结论:相互独立。

Note

只有在正态总体中,样本均值和样本方差才是相互独立的。这是正态分布的一个特殊性质。

均值和样本方差的协方差(推导?):

对于正态分布,由于其三阶中心矩为0,因此,这与独立的结论一致。

我们下面证明的独立性:

Thm

是总体的一个样本,则:

证明:

我们知道是多元正态的。考虑线性变换:

其中,而

由于多元正态分布的线性变换仍然是多元正态分布,也是多元正态的。为了证明独立,我们需要证明它们的协方差为0。

对于任意

因此,相互独立。

更一般地,是一个多元正态随机向量,其协方差矩阵为:

与这个向量的协方差向量全为0,因此相互独立。

我们看的协方差矩阵:

分块对角,所以和这个向量独立,和之前推导一样.

此外,还有一个有趣的结论:

Thm

是总体的一个样本,则:

  1. 独立:正态总体中,极差和均值独立

这是因为,而都是的函数,因此与独立。所以的独立性等价于的独立性,后者是成立的。

Thm

Review: Gamma分布的可加性

如果,且相互独立,则

上面这个结论只是复习,但是反过来,下面这个也是正确的:

更一般地,如果,且相互独立,那么:

证明可以通过特征函数来完成:

由独立性,我们有,因此:

解得:

这正是分布的特征函数。

现在我们可以继续推导样本方差的分布(结论3. )也就是下面这个式子:

首先,我们知道:

而样本方差可以表示为:

注意到,因此第三项变为:

所以:

其中,因此

由于独立,所以独立。根据卡方分布的可加性和减法性质,我们有:

这就证明了


充分统计量

考虑一个的样本,一个统计量. 如果“包含了样本的所有信息”,我们称这样子的统计量是一个充分统计量:

Def

充分统计量
假设样本,其中是一个统计量,如果

此分布与无关,称的充分统计量.

Thm

如果是充分统计量,一一对应,则的充分统计量.

Example

(*)
但是未知. 证明的充分统计量.

我们考虑计算

这里注意第二个等号.

Example

是总体的样本,考虑分别是不是充分统计量

注意第二个等号的分母是因为Poisson和的性质. 接下来考虑,计算一个特例:.

所以不是充分的.

那么什么样的统计量是充分的呢?

Thm

因子分解定理
的充分统计量当且仅当的联合分布满足:

我们只证明离散版本的必要性作为演示,事实上. 从而,这就是结论.

我们重新考虑(*)这个例子. 事实上

所以是一个统计量.

Example

.
考虑

取后一部分为定理中的,一个统计量是.

Example

正态分布的充分统计量是均值和样本方差
假设.

我们考虑分布:

所以充分统计量是,进而也是充分统计量.

Example

支撑集依赖于分布参数

的充分统计量?

所以充分统计量.

.

一个充分统计量是.

但是我们也可以这样做:

可以看到也是一个充分统计量.

Def

极小充分统计量
我们称是极小充分统计量,如果对于任意充分统计量,存在一个可测函数,使得

极大似然估计得到的参数一定是充分统计量?

参数估计

MOM(矩估计)

矩估计使用样本矩代替总体矩(原点矩).

令最左边的样本原点矩为最右边的总体原点矩,可以解出参数,这种进行参数估计的方法就是矩估计法.

Example

.
,所以(注:你令即可得.)

同样的,令. 可以得到. 注意使用样本原点矩!

同样的,令,从而可得,请你注意,在这里等于零,所以我们使用了二阶原点矩进行估计.

MLE(极大似然估计)

Def

似然函数

我们曾经介绍过实际推断原理:一件事发生的概率越大,在一次实验中就越可能发生,基于这种思想,我们可以提出极大似然估计:

因为对数函数单调,所以为了计算的方便,我们一般转换成对数似然求最大值:

Example

似然函数:

对数似然:

求驻点:

解得:

Example

似然函数:

极大似然估计的不变性:如果的极大似然估计,那么的极大似然估计.

Example

所以

然后求偏导,解得:

再看下面这个例子,支撑集依赖于参数:

Example

请注意不要一味求导,我们其实想解决的是这个问题:

只需要即可.

下面这个例子说明极大似然估计并不唯一:

Example

事实上就是:

Example

同样因为是单调的,所以其实.

老师在这里要求写出示性函数,不过其实写成约束条件也许是更通用的方法.

Thm

极大似然函数得到的参数一定是充分统计量
为什么?

参数估计的评价

这里我们先复习一下有关估计量的评价的几个概念:

Def

无偏估计量
如果统计量 满足 ,则称 的无偏估计量。

有偏估计量
如果 ,则称 是有偏估计量,其偏差定义为

Def

均方误差 (MSE)
参数 的估计量 的均方误差定义为:
其中 表示方差。

Def

相合估计量
如果对于任意 ,有:
则称 的相合估计量,也可表示为

我们以下面这里例子分析对参数估计的评价.

Example

,其中未知,进行参数估计。我们已经知道了(矩估计),

1. 无偏性与有偏性分析

矩估计是无偏估计,极大似然估计是有偏估计。

矩估计的无偏性
对于 ,我们有 ,所以

因此 是无偏估计。

极大似然估计的有偏性
我们考虑

对于最大次序统计量 ,其分布函数为:

其概率密度函数为:

因此:

所以 是有偏的,偏差为

我们可以通过乘以修正因子来纠偏:

这将得到一个无偏估计。

方差比较
矩估计 的方差:

修正后的极大似然估计 的方差:

比较两者方差:

时,,所以修正后的极大似然估计比矩估计更有效(方差更小)。

2. 相合性分析

Thm

相合性的充分条件
估计量 的相合估计量,如果:

  1. 渐进无偏:
  2. 方差趋于零:

我们可以说明矩估计和极大似然估计都是相合的:

矩估计的相合性

对于矩估计

  1. (无偏)

因此, 是相合估计。

极大似然估计的相合性

对于极大似然估计

  1. (渐进无偏)

另一种方法是直接计算:

因此, 也是相合估计。

需要指出的是,如果一个估计是相合的,那么在连续映射下相合性仍然不会改变:

Thm

相合性的不变性
如果 的相合估计量, 是连续函数,则 的相合估计量。

这是因为连续映射下的相合性不会改变:如果 ,则

此外,连续映射下的极大似然估计也是不变的:

Thm

极大似然估计的不变性
如果 的极大似然估计, 是可测函数,则 的极大似然估计。

3. 均方误差 (MSE) 比较

均方误差 (MSE) 用于比较估计量的整体表现,特别适用于比较有偏估计和无偏估计(不同地,只有两个估计都是无偏的情况下,我们才可以使用方差进行评估(为什么?)就像前面,我们对极大似然估计结果进行修正一样)

回忆下面这个式子:

对于矩估计

对于极大似然估计

化简得:

比较两者:

较大时,,说明极大似然估计在 MSE 意义下优于矩估计。

一致最小方差无偏估计 (UMVUE)

Def

一致最小方差无偏估计(UMVUE)
我们称的估计参数是一致最小方差无偏估计,如果它满足以下两点对于所有一致成立:

  1. 无偏性:
  2. 最小方差:在所有的无偏估计量中,它的方差最小

Rao-Blackwell 定理

Thm

Rao-Blackwell 定理
假设 的无偏估计(方差有限),而 的充分统计量,则:
也是 的无偏估计,且

这个定理提供了一种改进估计量的方法:如果我们有 的一个充分统计量和一个无偏估计,就可以构造一个方差更小的无偏估计。

证明

无偏性:

方差降低:
根据全方差公式:

由于 ,所以

如果我们找的不是一个充分统计量呢?其实可以说明,还是无偏的,而且方差会变小. 但是为什么我们在这里要求充分统计量呢?事实上,如果我们要求充分统计量,那么这里的就是一个局部的最优估计,接下来我们介绍Lehmann-Scheffe定理则说的是,找到全局最优的估计

Example

(伯努利分布)

根据因子分解定理, 是充分统计量。 的无偏估计,因为

根据 Rao-Blackwell 定理,我们考虑:

计算条件概率:

因此 ,即

这说明 的 UMVUE。(为什么?)

Example

(标准正态分布)

我们有:

零无偏估计与 UMVUE

Def

零无偏估计量
我们称统计量 是零无偏估计量,如果:

Thm

零无偏估计定理
假设 的无偏估计(方差有限),并且与任意一个零无偏估计量不相关:
那么 的 UMVUE。

证明

假设 是另一个 的无偏估计,考虑:

由于 ,即 是一个零无偏估计量,根据条件我们有 。因此:

这证明了 是 UMVUE。

我们可以从零空间等角度去理解这个事情

Example

(指数分布)

我们需要证明 的 UMVUE。

首先,,所以 的无偏估计。

使用零无偏估计定理,需要证明 对所有满足 成立。

对于指数族分布,我们有:

联合密度函数:

零无偏条件:

利用充分统计量的性质和指数族分布的特性,可以证明 与任何零无偏估计量不相关,因此 的 UMVUE。

完备统计量与 Lehmann-Scheffe 定理

完备分布族与完备统计量

Def

完备分布族
分布族 是完备的,如果对任意 ,有:
或等价地,

Def

完备统计量
如果统计量 的分布是完备分布族,那么 就是一个完备统计量。

Example

是完备分布族。

证明:如果 ,即:

我们可以将上式重写为:

由于 是任意的, 可以取任意正实数。这意味着多项式 对无限多个 都等于零,因此这个多项式必须恒等于零。这要求所有系数 都等于零,即

指数族分布

Def

指数族分布
分布密度函数形如:
的分布称为指数族分布。其中 维的统计量, 维的参数。

指数族分布的性质

  1. 如果 有内点,则 是一个完备统计量。

  2. 如果 是样本,则 是一个充分完备统计量。

Note

下面这些分布族是完备的:

注意对称的正态不完备,注意里面并不全是指数分布族
注意要求参数空间要完整?

Example

(指数分布)

联合密度函数:

这是指数族分布的形式,其中:

  • (参数空间的重参数化)

根据指数族分布的性质, 是一个充分完备统计量。

Lehmann-Scheffe 定理

Thm

Lehmann-Scheffe 定理
如果 的一个无偏估计, 的完备充分统计量,那么 的唯一的 UMVUE。

证明

  1. 根据 Rao-Blackwell 定理, 的无偏估计,且方差不大于

  2. 唯一性:假设存在另一个基于 的无偏估计 ,则:

    这意味着 。由于 是完备统计量,这意味着 几乎处处成立。因此, 是唯一的。

UMVUE并不总是唯一的,只有这里要求完备的情况下才会是唯一的.

Example

(正态分布, 已知)

正态分布属于指数族分布:

视为参数, 是充分统计量。对于样本, 是充分完备统计量。

易知 的无偏估计。由 Lehmann-Scheffe 定理, 的 UMVUE。

Example

,请你考虑的UMVUE.

显然一个充分统计量是,它服从,所以是的完备的充分统计量(为什么?). 所以我们现在需要找一个的无偏估计. 我们考虑:

容易说明是无偏估计,因为显然

所以唯一的UMVUE:

Example

建议复习的时候看看
,而,请问的UMVUE.

显然

的一个无偏估计. 而且是一个充分完备(tell me why)统计量. 所以它有唯一的UMVUE,这里展示一下怎么求:

事实上,考虑:

所以(下面这个结论在正态分布章节亦有记载):

所以最后的结论是

极小充分统计量

Def

极小充分统计量
如果统计量 是充分的,且 是任何其他充分统计量的函数,则称 为极小充分统计量。

极小充分统计量包含了样本中关于参数的所有信息,且以最紧凑的形式表示。它在参数估计中尤为重要,因为基于极小充分统计量的 UMVUE 通常更为简洁高效。

Thm

极小充分统计量的判定
对于概率密度函数 ,如果比值 不依赖于 当且仅当 ,则 是极小充分统计量。

Example

(正态分布, 未知)

联合密度函数:

比值:

展开:

这个比值不依赖于 当且仅当

因此, 是极小充分统计量。这等价于 ,其中 是样本方差。

Cramér-Rao 下界与有效估计(CRLB)

在参数估计理论中,我们经常关心估计量的精度. 对于无偏估计量,其方差越小,估计精度越高. 但是无偏估计量的方差有理论下界吗?Cramér-Rao 下界给出了肯定的答案:在满足一定正则条件下,任何无偏估计量的方差都有一个理论下界,这个下界与 Fisher 信息量密切相关.

Fisher 信息量与正则条件

在介绍 Cramér-Rao 下界之前,我们首先需要了解 Fisher 信息量的概念.

Def

Fisher 信息量

,参数 的 Fisher 信息量定义为:

在二阶可导的情况下,还有等价形式:

这里 表示单个观测的 Fisher 信息量.

Fisher 信息量直观地反映了数据包含的关于参数 的信息量. 信息量越大,说明数据对参数的估计越精确.

为了保证 Cramér-Rao 下界的成立,我们需要一些技术性条件:

Def

正则条件

  1. 参数空间 是开区间
  2. 支撑集 不依赖于参数
  3. 对所有 ,偏导数 存在
  4. Fisher 信息量 存在且有限

其中第二个条件最为关键:概率密度函数的支撑集必须与参数无关. 这个条件排除了如均匀分布 等支撑集依赖于参数的分布.

Score 函数的性质

设样本 来自总体 ,似然函数为:

我们定义 Score 函数(量)

Thm

Score 函数的期望为零

在正则条件下,.

证明:

这里使用了正则条件允许积分与求导交换顺序.

因此,样本的 Fisher 信息量可以表示为:

想想为什么. 因为独立同分布,方差可加. 我们这个结果表明,样本量越大,Fisher 信息量越大,估计精度越高.

极大似然估计的渐近性质

在正则条件下,极大似然估计具有良好的渐近性质:

Thm

MLE 的渐近正态性

在正则条件下,极大似然估计 满足:

这个结果可以通过 Taylor 展开,Slutsky 定理和中心极限定理证明. 它表明正则条件下 MLE 是相合的,且渐近方差达到 Cramér-Rao 下界,因此是渐近有效的.

Cramér-Rao 下界定理

现在我们可以给出 Cramér-Rao 下界的主要结果:

Thm

Cramér-Rao 下界定理

设样本 为开区间,且满足正则条件. 设 是任意方差有限的统计量,且满足:

则有:

特别地,若 (即 的无偏估计),则:

证明:

使用 Cauchy-Schwarz 不等式. 对于任意随机变量 ,有:

,利用 即可得到结果.

有效估计

Def

有效估计

如果无偏估计 的方差恰好达到 Cramér-Rao 下界,即:

则称 有效估计.

有效估计具有最小方差性质,是理想的估计量. 从包含关系来看:

需要注意的是,有效估计不一定存在. 即使存在,也需要通过具体计算来验证.

应用实例

例 1:Poisson 分布

Example

Poisson 分布的有效估计

,样本 . 问样本均值 是否为 的有效估计?

解: 首先计算 Fisher 信息量:

因此 Cramér-Rao 下界为:

的性质:

  • (无偏)

由于 ,所以 的有效估计.

例 2:指数分布

Example

指数分布的有效估计

,即密度函数为 . 问样本均值 是否为 的有效估计?

解:

计算 Fisher 信息量:

Cramér-Rao 下界为:

的性质:

  • (无偏)

因此 的有效估计.

例 3:均匀分布

均匀分布与正则条件

对于 ,我们知道 的 UMVUE. 它能达到 Cramér-Rao 下界吗?

分析:

均匀分布 的支撑集 依赖于参数 ,违反了正则条件的第二条. 因此 Cramér-Rao 下界定理不适用.

实际上可以证明, 的方差严格大于形式上的 Cramér-Rao 下界. 这说明支撑集依赖于参数的分布族中,估计量无法达到理论下界.

UMVUE 的求法总结

寻找 UMVUE 的主要方法包括:

  1. Lehmann-Scheffé 定理:利用完备充分统计量
  2. Cramér-Rao 下界:验证估计量是否有效
  3. Rao-Blackwell 定理:通过条件期望改进估计量

另外,Basu 定理告诉我们完备充分统计量与辅助统计量独立,这在正态分布中有典型应用:样本均值和样本方差相互独立.


Bayes 估计

与经典的频率学派不同,Bayes 统计将参数 视为随机变量,具有先验分布. 这种观点为参数估计提供了全新的视角.

Bayes 估计的基本框架

在 Bayes 统计中:

  • 参数 具有先验分布
  • 观测数据 给定参数的条件分布
  • 结合先验信息和样本信息得到后验分布

后验分布的计算

给定样本观测 ,根据 Bayes 定理:

其中似然函数:

由于分母不依赖于 ,我们有:

这就是著名的"后验 ∝ 似然 × 先验"公式.

Bayes 估计量

基于后验分布,可以构造不同的 Bayes 估计量:

  1. 后验期望
  2. 后验中位数
  3. 后验众数(MAP 估计,最大后验估计)

不同的损失函数对应不同的 Bayes 估计量:

  • 平方损失 → 后验期望
  • 绝对值损失 → 后验中位数
  • 0-1 损失 → 后验众数

共轭先验

Definition

共轭先验

如果先验分布 与后验分布 属于同一分布族,则称先验分布为似然函数的共轭先验.

共轭先验的优点是后验分布有解析形式,便于计算和分析.

例子

二项分布的 Bayes 估计

,样本 . 取 作为先验分布,求 的 Bayes 估计.

解: 先验密度:

似然函数:

后验分布:

这是 分布.

因此,Bayes 估计(后验期望)为:

(均匀先验)时:

这个结果有直观解释:相当于在观测数据的基础上,额外观测到 1 次成功和 1 次失败.

Example

Gamma 分布的贝叶斯估计

,其中 已知,求 的贝叶斯估计.

Step 1: 选择先验分布

选择共轭先验

Step 2: 计算后验分布

似然函数为:

后验分布(忽略正比常数):

因此后验分布为:

Step 3: 贝叶斯估计

使用后验均值估计(最小平方损失下的贝叶斯估计):

若使用 MAP 估计,需求后验分布的众数:

Note

关于参数化的说明

当 Gamma 分布参数化为 时,应选择逆 Gamma 分布作为 的共轭先验. 这是因为不同的参数化会影响共轭性质.

Example

正态分布均值的贝叶斯估计

,其中 已知,取先验 .

后验分布推导:

似然函数:

结合先验分布,后验分布的对数形式为:

整理后可得后验分布仍为正态分布:

重要性质: 后验均值是先验均值 和样本均值 的加权平均,权重分别为先验精度 和样本精度 .

Note

其他常见共轭先验

  • 正态分布方差已知均值未知:先验选择正态分布
  • 正态分布均值已知方差未知:先验选择逆 Gamma 分布
  • 二项分布:先验选择 Beta 分布
  • 泊松分布:先验选择 Gamma 分布

MCMC 方法

[略]

置信区间

区间估计的基本概念

点估计用单个统计量 估计参数 ,而区间估计则用区间 来估计参数.

Def

置信区间

的置信度为 的(双侧)置信区间,如果:

  • 若等号成立,称为同等置信区间
  • 若只考虑单边约束,如 ,称为单侧置信上限

置信区间的评价标准

  1. 置信度(覆盖概率):
  2. 在置信度固定下,区间长度的期望:

枢轴量法(Pivot Method)

枢轴量法是构造置信区间的重要方法.

Def

枢轴量

称统计量 为枢轴量,如果其分布不依赖于任何未知参数.

构造置信区间的步骤:

  1. 找到良好的点估计
  2. 构造枢轴量 ,其中 不依赖参数
  3. 选择分位数 使得
  4. 反解得到置信区间

反解得到的置信区间不见得是最优的,要求解最优置信区间我们往往需要求解一个约束优化问题. 实际上现实中我们往往求解等尾置信区间:

但这并不一定最优,但是有如下结论:

Thm

等尾置信区间的最优性

当总体分布单峰对称时,等尾置信区间具有最短的期望长度.

Example

均匀分布 的置信区间

Step 1: 点估计为

Step 2: 构造枢轴量

由于 的密度函数,选择枢轴量:

注意这是 分布. 注意这个分布我们如何得到?应该先求出分布函数再求导.

Step 3: 确定分位数

对于等尾置信区间,需要:

解得:

Step 4: 置信区间

最优置信区间:

可以证明,最短期望长度的置信区间为:

Example

指数分布 的置信区间

充分统计量(充分统计量怎么找?)为 . 请注意Gamma分布和指数分布的关系,.

构造枢轴量:

分别为 分布的 分位数,则:

反解得置信区间:

如果我们知道了. 我们要计算也应该是容易的.

拓展与复习

注:这部分是使用AI补充笔记的时候AI写的,放在这里.

正态分布抽样的统计推断应用

均值的区间估计

利用正态总体的抽样分布理论,我们可以构造均值的置信区间。

Thm

已知方差时均值的置信区间

是来自正态总体的样本,已知,则置信区间为:

其中是标准正态分布的上分位数。

Thm

未知方差时均值的置信区间

是来自正态总体的样本,未知,则置信区间为:

其中是自由度为分布的上分位数。

这个结果的推导基于统计量:

这个统计量是由下面的推导得到的:

其中,且。由于独立,服从分布。

方差的区间估计

Thm

正态总体方差的置信区间

是来自正态总体的样本,则置信区间为:

其中是自由度为分布的上分位数。

这个结果的推导基于统计量:

两个正态总体均值差的区间估计

Thm

两个独立正态总体均值差的置信区间

假设有两个独立的样本:

  • 来自
  • 来自

已知,则置信区间为:

未知,则置信区间为:

其中是合并样本方差。

正态总体中的假设检验

Thm

单个正态总体均值的假设检验

若要检验假设,备择假设为(双侧检验),则:

  1. 已知时,检验统计量为:

    在显著性水平下,如果,则拒绝

  2. 未知时,检验统计量为:

    在显著性水平下,如果,则拒绝

Thm

两个正态总体均值差的假设检验

若要检验假设(通常),备择假设为(双侧检验),则:

  1. 已知时,检验统计量为:

    在显著性水平下,如果,则拒绝

  2. 未知时,检验统计量为:

    在显著性水平下,如果,则拒绝

Thm

正态总体方差的假设检验

若要检验假设,备择假设为(双侧检验),则检验统计量为:

在显著性水平下,如果,则拒绝

Thm

两个正态总体方差比的假设检验

若要检验假设,备择假设为(双侧检验),则检验统计量为:

在显著性水平下,如果,则拒绝

经验分布函数的进一步性质与应用

Dvoretzky–Kiefer–Wolfowitz不等式

Thm

DKW不等式

对于任意的,有:

这个不等式给出了经验分布函数与真实分布函数之间一致距离的概率上界。

经验分布函数的应用

Kolmogorov-Smirnov检验

Def

K-S检验统计量

其中是在原假设下的理论分布函数。

在K-S检验中,如果大于特定的临界值,我们就拒绝样本来自分布的原假设。

分位数估计

经验分布函数可以用来估计分位数。对于分位数的估计为:

实际上,这等价于样本顺序统计量

顺序统计量

Def

顺序统计量

如果将样本按从小到大的顺序排列,得到,则称为第个顺序统计量。

顺序统计量的分布和性质:

  1. 对于均匀分布的样本,顺序统计量的密度函数为:

  2. 对于一般的分布,顺序统计量的密度函数为:

    其中是总体的密度函数。

  3. 对于正态总体,顺序统计量之间是相关的,但渐近地,对于固定的,当时,标准化的顺序统计量是渐近独立的正态随机变量。

极值理论

极值统计量(最小值)和(最大值)在许多应用中尤为重要。

Thm

极值分布定理

如果存在常数序列,使得

其中是非退化的分布函数,那么必须是以下三种类型之一:

  1. Gumbel(I型极值分布):
  2. Fréchet(II型极值分布):
  3. Weibull(III型极值分布):

Beta分布与Gamma分布的重要性质

Beta分布

Def

Beta分布

随机变量服从参数为的Beta分布,记为,如果其密度函数为:

其中是Gamma函数。

Beta分布的期望和方差:

Beta分布与顺序统计量的关系:

  1. 如果是来自的独立样本,则

  2. 更一般地,如果是来自连续分布的独立样本,则

Gamma分布

Def

Gamma分布

随机变量服从参数为的Gamma分布,记为,如果其密度函数为:

其中是形状参数,是速率参数。

Gamma分布的期望和方差:

Gamma分布的特殊情况:

  1. 时,Gamma分布退化为指数分布

  2. 时,Gamma分布等价于自由度为的卡方分布

Gamma分布的可加性:

如果是独立的,则

Beta与Gamma分布的关系

Thm

如果是独立的,则:

相互独立。

这个结果在统计学中非常重要,特别是在贝叶斯分析中。

抽样分布的实际应用

样本量确定

在实际应用中,我们经常需要确定所需的样本量以达到特定的精度要求。

Example

均值估计的样本量

若要使得均值的估计误差不超过(以的置信度),则所需的样本量为:

未知,可以使用预试验或先验信息来估计

功效分析

在假设检验中,功效是指当备择假设为真时拒绝原假设的概率。

Example

单个正态总体均值检验的功效

考虑检验(其中),当已知时,显著性水平为的检验的功效为:

其中是标准正态分布的累积分布函数。

稳健性

抽样分布理论主要基于正态性假设。然而,在实际应用中,数据可能偏离正态分布。因此,了解统计推断方法的稳健性很重要。

Note

中心极限定理的稳健性

即使总体分布不是正态的,只要样本量足够大,样本均值的分布仍然近似正态。这就是统计推断的稳健性基础。

对于检验,当总体是对称分布且样本量不太小时,检验结果通常是可靠的。但是,对于高度偏斜的分布,即使样本量较大,检验也可能不是很稳健。

非参数方法

当总体分布未知或偏离正态性很大时,可以考虑使用基于经验分布函数的非参数方法。

Example

Wilcoxon符号秩检验

这是一种非参数检验方法,用于检验单个总体的中位数是否等于特定值。它不要求总体分布为正态分布,只要总体分布是连续的且对称的即可。

总结

抽样分布是统计推断的基础。通过了解统计量的抽样分布,我们可以构造置信区间、进行假设检验,并进行其他形式的统计推断。

正态总体的抽样分布有特别简单的形式,这使得基于正态假设的统计推断方法特别强大。特别地,样本均值和样本方差的独立性是正态分布的一个特殊性质,它极大地简化了统计推断过程。

经验分布函数作为总体分布函数的一个估计,具有良好的渐近性质,并且可以用于非参数统计推断。它提供了一种在不做强分布假设的情况下进行统计推断的方法。

三大抽样分布(卡方分布、t分布和F分布)在统计推断中扮演着核心角色,它们之间存在着密切的关系,这些关系反映了正态总体中各种统计量之间的内在联系。


信息量与 Fisher 信息

Def

Fisher 信息量
参数 的 Fisher 信息量定义为:
其中 是概率密度函数。

Fisher 信息量衡量了样本中包含的关于参数 的信息量,它与估计量的方差下界有关。

Thm

Cramér-Rao 不等式
对于参数 的任意无偏估计量 ,其方差满足:
其中 是样本大小, 是单个观测的 Fisher 信息量。

当等号成立时,对应的估计量称为有效估计量。

Example

(正态分布, 已知)

计算 的 Fisher 信息量:

因此:

Cramér-Rao 下界为:

样本均值 的方差为 ,恰好达到下界,因此 的有效估计量。

渐近理论与大样本性质

Thm

极大似然估计量的渐近性质
在一般正则条件下,极大似然估计量 具有以下渐近性质:

  1. 相合性:
  2. 渐近正态性:
  3. 渐近有效性: 渐近达到 Cramér-Rao 下界

这意味着在大样本情况下,极大似然估计量是最优的(在方差意义上)。

Example

(指数分布)

极大似然估计量为

Fisher 信息量:

根据极大似然估计量的渐近性质,当 较大时:

贝叶斯估计与最大后验估计

在贝叶斯统计中,我们把参数 也视为随机变量,并赋予先验分布。

Def

贝叶斯估计
给定样本 和参数 的先验分布 ,后验分布为:

贝叶斯估计通常取后验分布的:

  • 均值:(后验均值)
  • 中位数:使得 (后验中位数)
  • 众数:(最大后验估计)
Example

(正态分布, 已知)

假设 的先验分布也是正态分布:

后验分布:

整理指数项:

这是一个正态分布的核,后验分布为:

贝叶斯估计(后验均值)为:

其中 。这是先验均值 和样本均值 的加权平均。

时,,贝叶斯估计趋近于样本均值,体现了"数据战胜先验"的原则。

最小二乘估计与回归分析

在回归分析中,我们关注的是变量之间的关系,而不仅仅是单个参数。

Def

最小二乘估计
给定数据 和模型 ,最小二乘估计是使残差平方和最小的参数值:

Example

线性回归模型:

最小二乘估计:

如果假设误差项 且独立同分布,那么最小二乘估计等价于极大似然估计。

鲁棒估计

实际应用中,数据可能存在异常值或偏离假设分布,这时需要使用鲁棒估计方法。

Def

M 估计
M 估计是极大似然估计的推广,通过最小化一个一般的目标函数:

其中 是一个鲁棒损失函数,对异常值不敏感。

Example

Huber 估计
Huber 损失函数:

对于较小的残差,使用平方损失(类似最小二乘),对于较大的残差,使用绝对值损失,减轻异常值的影响。

多维参数估计

当参数是多维向量时,估计方法可以推广。

Example

(多元正态分布)

均值向量 的极大似然估计为样本均值向量:

协方差矩阵 的极大似然估计为样本协方差矩阵:

这是有偏估计,无偏估计为:

估计方法比较与选择

在实际应用中,选择合适的估计方法需要考虑多种因素:

  1. 计算复杂度:矩估计通常计算简单,极大似然估计可能需要数值方法,贝叶斯方法计算量更大。

  2. 样本量:小样本时,无偏性可能更重要;大样本时,相合性和渐近性质更为关键。

  3. 对模型假设的依赖:极大似然方法依赖于模型的正确设定,矩估计较少依赖于完整的分布假设,鲁棒方法对异常值不敏感。

  4. 先验信息:当有可靠的先验信息时,贝叶斯方法可能更优;缺乏先验信息时,频率派方法(如极大似然、矩估计)可能更合适。

  5. 关注的性质:如果关注无偏性,可以选择无偏估计;如果关注 MSE,可能需要权衡偏差和方差。

Example

估计方法比较表

方法 优点 缺点 适用场景
矩估计 计算简单,常为无偏 可能效率不高 快速初步估计,复杂模型
极大似然估计 渐近有效,不变性好 可能有偏,计算复杂 大样本,模型明确
UMVUE 最优无偏估计 难以找到,计算复杂 理论分析,标准模型
贝叶斯估计 利用先验信息,提供不确定性 依赖先验选择,计算复杂 有先验信息,小样本
鲁棒估计 对异常值不敏感 效率可能降低 数据存在异常值

总结

参数估计是统计推断的核心内容,通过样本数据对总体参数进行推断。本笔记系统地介绍了各种估计方法及其性质:

  1. 基本估计方法

    • 矩估计:基于样本矩等于总体矩的原理
    • 极大似然估计:选择使样本出现概率最大的参数值
    • 最小二乘估计:最小化预测误差的平方和
  2. 估计量的评价标准

    • 无偏性:估计量的期望等于参数真值
    • 有效性:估计量具有最小方差
    • 相合性:随样本量增加,估计值收敛到参数真值
    • 均方误差:衡量估计量的综合表现
  3. 改进估计方法

    • Rao-Blackwell 定理:利用充分统计量改进估计
    • 完备统计量与 Lehmann-Scheffe 定理:找到 UMVUE
    • 极小充分统计量:最紧凑的包含全部参数信息的统计量
  4. 高级理论与应用

    • Fisher 信息与 Cramér-Rao 不等式:估计方差的理论下界
    • 贝叶斯估计:利用先验信息改进估计
    • 渐近理论:大样本下估计量的性质
    • 鲁棒估计:处理含异常值的数据

理解这些方法的优缺点和适用条件,对于实际统计分析和数据科学应用至关重要。在不同的问题背景下,选择合适的估计方法能够提高参数估计的准确性和可靠性。